Gerência de Incerteza em Bancos de Dados de Proveniência de Workflows de Bioinformática

نویسندگان

  • Gustavo Tallarida
  • Kary A. C. S. Ocaña
  • Aline Paes
  • Vanessa Braganholo
  • Daniel de Oliveira
چکیده

Provenance databases play an essential role in scientific experiments. The models considered to represent such data assume that there is a certainty in all the provenance relations. However, several experiments are not deterministic, which makes their results to be associated with uncertainties. Analyze provenance data in the presence of such uncertainties is not trivial. In this paper, we address the management of non-deterministic provenance data by relying on an extractor component that stores both provenance data and its corresponding uncertainty values in a probabilistic database. Experiments show an acceptable overhead of 3% in the workflow runtime and 16% in the time spent to process a query.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Uso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos

Resumo. Um fator fundamental na gerência de experimentos modelados como workflows científicos são seus dados de proveniência. Esses dados basicamente são usados para garantir a reprodutibilidade, porém nos últimos anos eles também vêm sendo usados para tarefas de monitoramento e escalonamento de atividades. Como essas tarefas demandam consultas em tempo real, conforme a quantidade de dados de p...

متن کامل

Distribuição de Bases de Dados de Proveniência na Nuvem

Resumo. Dados de proveniência no contexto de workflows científicos são peças fundamentais, pois, por meio deles, os experimentos são passíveis de reprodução e validação. O histórico da execução dos workflows é fundamental também para a gerência da execução de novos workflows uma vez que possibilitam às máquinas de workflow realizar predições sobre desempenho ou custo financeiro de nuvens de com...

متن کامل

D-Bioflow: Uma Abordagem para Distribuição de Dados em Workflows de Bioinformática

Collaboration and technological resources exploration has greatly improved in scientific environments, due to the availability of a great number of computing services in the internet. However, this distributed scenario typically requires intensive data transfer between internet servers, which impacts the execution time of scientific workflows. This paper proposes an approach for managing distri...

متن کامل

SGProv: Mecanismo de Sumarização para Múltiplos Grafos de Proveniência

Resumo. Os Sistemas de Gerência de Workflows Científicos (SGWfC) têm o objetivo de automatizar a construção e execução de experimentos científicos. Várias execuções de workflows são necessárias para realizar um experimento. O rastro de proveniência, coletado pelos SGWfC durante estas execuções, é importante para que os cientistas possam compreender, reproduzir e analisar seus experimentos. Um r...

متن کامل

Gerência de Proveniência Multigranular em Linked Data com a Abordagem ETL4LinkedProv

This paper presents the ETL4LinkedProv approach to manage the collection and publication of provenance metadata with different levels of granularity, as Linked Data. The approach uses ETL workflows and a novel component named Provenance Collector Agent. Its application in a real scenario is presented and the impact of the fine-grained provenance in the ETL workflow runtime and in the number of ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016